Evolution ML Inference

Cервис для запуска и развертывания моделей машинного (ML) и глубокого обучения (DL)

Стоимость

Возможности

Ответы на вопросы

Связаться с нами

Описание сервиса

Сервис для запуска ML-моделей из библиотеки Hugging Face на облачных мощностях с GPU, в том числе в пользовательских Docker-образах. Для более эффективного инференса Evolution ML Inference поддерживает среды исполнения vLLM, TGI, Ollama, Diffusers, Transformers, а также модели-трансформеры, диффузионные модели и большие текстовые модели (LLM).

Возможности

Производительность и экономия

Совместное использование ресурсов графического ускорителя (Shared GPU) создает баланс стоимости, производительности и эффективности потребления облачных ресурсов.

Динамическое автомасштабирование

При повышении числа запросов инференса автоматически выделяются дополнительные мощности или наоборот один GPU используется совместно несколькими инференсами.

Поддержка моделей из Hugging Face

Сервис позволяет запускать модели из популярной платформы Hugging Face, а также использовать библиотеки vLLM, TGI, Ollama, Diffusers для более эффективного инференса.

Мгновенный доступ к инференсу

Доступ к инференсу моделей открывается сразу после оплаты ресурсов. Счет за сервис выставляется по модели pay-as-you-go: плата начисляется только за использованные ресурсы.

Запуск моделей в Docker-образах

Docker RUN запускает модели с Docker-образами в контейнерной среде. Сервис обеспечивает автоматическое развертывание контейнеров и динамическое автомасштабирование.

Защита инфраструктуры

Платформа Evolution обеспечивает защиту виртуальных машин от несанкционированного доступа и антивирусную защиту, а также поддерживает межсетевое экранирование сетевых потоков сервиса.

Ответы на вопросы

Какие типы GPU доступны?

Сервис Evolution ML Inference предлагает несколько типов GPU V100/H100, которые отличаются по производительности и стоимости. Чтобы выбрать подходящий графический процессор, оцените требования модели к вычислительным ресурсам: объем памяти и количество ядер. Рекомендуем начинать с менее мощного GPU и масштабировать ML-модели по мере необходимости.

Какие источники для запуска ML-моделей можно использовать?

Какие среды исполнения доступны?

Какие типы моделей доступны для инференса?

Cloud.ru – ведущий провайдер облачных и AI‑технологий

*По объему выручки IaaS- и PaaS-сервисов за 2024 год (по данным iKS-Consulting), AI-сервисов за 2023 год (по данным CNews Analytics).

Больше чем просто поддержка

Полное сопровождение для решения ваших задач и понятный бизнес-результат

Индивидуальный подход к каждому клиентуПроведем бесплатную консультацию по вашему проекту, ответим на вопросы и подберем лучшие решения.

Круглосуточно на связиБесплатная техподдержка 24/7, на связи всегда реальные люди.

Evolution ML Inference

Описание сервиса

Возможности

Производительность и экономия

Динамическое автомасштабирование

Поддержка моделей из Hugging Face

Мгновенный доступ к инференсу

Запуск моделей в Docker-образах

Защита инфраструктуры

Ответы на вопросы

Cloud.ru – ведущий провайдер облачных и AI‑технологий

Больше чем просто поддержка

1 400+ экспертов в области IT, кибербезопасности и AI

Проверенные методологии и лучшие практики бесшовной миграции в облако

Персональный менеджер для сопровождения ваших задач

Заявка на консультацию